Сборка генома de novo

Коротко об исследуемой бактерии

Buchnera aphidicola — вид гамма-протеобактерий, являющихся первичными эндосимбионтами гороховых тлей Acyrthosiphon pisum.

Питающиеся соком растений тли получают мало незаменимых аминокислот. Для решения этой проблемы тли вступили в симбиоз с бактериями рода Buchnera (это эволюционное событие произошло 00 миллионов лет назад).

В результате бактерии лишились большей части своего генома и потеряли способность жить вне организма насекомых. Buchnera aphidicola живут в специальных клетках тлей (бактериоцитах) и синтезируют для хозяев незаменимые аминокислоты, получая взамен углеводы для себя и азот для синтеза аминокислот.

Передаются симбионты вертикально: через яйцеклетки матери к потомкам, что обеспечивает непрерывное "заражение". В одной особи тли может существовать одновременно до 5,6 миллионов бактерий

Cсылка на страницу проекта, с нее я скачал файл fastq в виде архива .gz, после чего перенес в свою рабочую директорию.

Для распаковки архива нужно применить команду gunzip SRR4240358.fastq.gz

Таким образом был получен файл с чтениями SRR4240357.fastq.

Очистка чтений

Теперь необходимо очистить файл, то есть удалить адаптеры и плохие буквы с концов.

Cперва нужно объеденить файлы с адаптерами (файлы по адресу /P/y15/term3/block4/adapters) в один (команда seqret "*.fa" adapters.fasta). Результат - adapters.fasta

Очистка проводится с помощью программы Trimmomatic:

  • Команда java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240358.fastq SRR4240358_noad.fastq ILLUMINACLIP:adapters.fasta:2:7:7 удаляет остатки адаптеров и выдает файл SRR4240358_noad.fastq
  • Команда java -jar /usr/share/java/trimmomatic.jar SE -phred33 SRR4240358_noad.fastq SRR4240358_trim.fastq TRAILING:20 MINLEN:30TrimmomaticSE: Started with arguments: -phred33 SRR4240358_noad.fastq SRR4240358_trim.fastq TRAILING:20 MINLEN:30 обрезает с концов чтений нуклеотиды с качеством ниже 20 и проводит отбор чтений длины не менее 30, результат - файл SRR4240358_trim.fastq
  • При удалении адаптеров было отброшено 174956 прочтений из 10368883 (1.66%), размер файла уменьшился с 1125 Мб до 1106 Мб.

    При удалении плохих букв было отброшено 1787974 прочтений из 8580909 (17,24%), размер файла уменьшился с 1106 Мб до 876 Мб.

    Подготовка k-меров

    Подготовка k-меров производится с помощью программы velveth. Цель - создать набор данных, которые можно обработать программой velvetg.

    Необходимо подготовить k-меры длины 29 для коротких непарных чтений (-short) из файла в формате fastq (-fastq).

    Использованная команда: velveth velveth 29 -fastq -short SRR4240358_trim.fastq

    Результат: папка velveth с записанными в нее файлами.

    Cборка на основе k-меров

    Cборка на основе k-меров производится программой velvetg с использованием данных, полученных на предыдущем этапе.

    Velvetg строит граф де Брёйна - ориентированный n-мерный граф из m символов, отражающий пересечения между последовательностями символов. Он имеет m^n вершин, состоящих из всех возможных последовательностей длины n из данных символов. Один и тот же символ может встречаться в последовательности несколько раз.

    Запуск программы без дополнительных параметров позволят получить fasta-файл с контигами и статистические данные в указанной папке.

    Использованная команда: velvetg velveth

    Полученные результаты записываются в папку velveth.

    Построенный граф содержит 686 вершин, информация по каждой находится в файле stats.txt. ВАЖНО: число вершин не равно числу контигов.

    В файле contigs.fa записаны контиги длиной не менее 29. Всего их нашлось 188.

    N50 = 13843, длина самого большого контига 38496, таблица Exsel со статистическими данными о контигах.

    Три самых больших контига:

  • Контиг 9 ID=9, длина 38496, покрытие 36.68
  • Контиг 6 ID=6, длина 30747, покрытие 38.86
  • Контиг 7 ID=7, длина 27984, покрытие 40.81
  • Есть контиги с аномально большим или малым покрытием. Я приведу пример некоторых из них:

  • Контиг 334 ID=334, длина 47, покрытие 510.21
  • https://www.ncbi.nlm.nih.gov/nuccore/926444578/

  • Контиг 66 ID=66, длина 196, покрытие 423.07
  • Контиг 412 ID=412, длина 29, покрытие 3.07
  • Можно сказать, что для конгигов с аномально большим окрытием характерна сравнительно небольшая длина.

    Анализ

    Сравнение 3 самых длинных контигов проводится с помощью алгоритма MEGABLAST с хромосомой бактерии Buchnera aphidicola (CP009253).

    Сравнение самых длинных контигов с хромосомой Buchnera aphidicola
    IDКоординаты в геномеMax scoreTotal scoreQuery coverE-valueIdent
    9202390-2194913349171694%0.078%
    6153752-1662454741121983%0.078%
    72004-144685760136833%0.078%

    При запуске MEGABLAST с хромосомой и "аномальным" контигом программа не работает и выводит "No significant similarity found." ни для одного из контигов с аномально большим покрытием построить выравнивание не удалось.


    © Борисов Евгений 2016